首页> 外文OA文献 >Strategy complexity of finite-horizon Markov decision processes and simple stochastic games
【2h】

Strategy complexity of finite-horizon Markov decision processes and simple stochastic games

机译:有限时域马尔可夫决策过程的策略复杂性   简单的随机游戏

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Markov decision processes (MDPs) and simple stochastic games (SSGs) provide arich mathematical framework to study many important problems related toprobabilistic systems. MDPs and SSGs with finite-horizon objectives, where thegoal is to maximize the probability to reach a target state in a given finitetime, is a classical and well-studied problem. In this work we consider thestrategy complexity of finite-horizon MDPs and SSGs. We show that for all$\epsilon>0$, the natural class of counter-based strategies require at most$\log \log (\frac{1}{\epsilon}) + n+1$ memory states, and memory of size$\Omega(\log \log (\frac{1}{\epsilon}) + n)$ is required. Thus our bounds areasymptotically optimal. We then study the periodic property of optimalstrategies, and show a sub-exponential lower bound on the period for optimalstrategies.
机译:马尔可夫决策过程(MDP)和简单随机博弈(SSG)提供了丰富的数学框架来研究与概率系统相关的许多重要问题。具有有限水平目标的MDP和SSG是一个经典且经过充分研究的问题,目标是在给定的有限时间内最大化达到目标状态的可能性。在这项工作中,我们考虑了有限水平MDP和SSG的战略复杂性。我们证明,对于所有$ \ epsilon> 0 $,基于计数器策略的自然类最多需要$ \ log \ log(\ frac {1} {\ epsilon})+ n + 1 $内存状态,以及size $ \ Omega(\ log \ log(\ frac {1} {\ epsilon})+ n)$是必需的。因此,我们的边界区域渐近最优。然后,我们研究最优策略的周期性,并在最优策略的周期上显示出次指数下界。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号